初学爬虫时，如何正确的找到信息节点？

查看原文

其他

初学爬虫时，如何正确的找到信息节点？

From: 咪咪怪咪哥杂谈 2019-10-31

咪哥杂谈

本篇阅读时间约为 3 分钟。

遇到的问题

上个月，有个朋友在初学爬虫的时候遇到了一个问题，给他解决问题的同时写了一个文档。今天给大家分享一下吧。也许你也会遇到相同的疑问。

在初学爬虫时，你可能会遇到一个问题，如何才能正确的从网页上分析出想要的节点呢？在此之前，你需要先了解一个知识点，HTML。

了解 HTML

W3C，地址：

http://www.w3school.com.cn/html/index.asp

乍一看，内容很多的样子，但是实际上你只需要花 20 分钟大致了解下 HTML 基本的元素组成即可。就像下图,了解红框即可：

举个栗子

像笔者之前小课堂提到的熊猫直播，已经晾凉了，这次采用章鱼直播给大家举个栗子吧！(采用了他提供的直播站来讲解下)

章鱼直播地址：

http://www.zhangyu.tv/channeltypes/all

1.首先，明确要获取的信息，按下 F12，查看元素：

2.找到一组自己想要的数据：

3.观察多组数据，分析节点：

4.分析节点，统计数据：

找到爬取内容的前后节点信息，在 F12 中 Ctrl + F 搜索下 class ，看看有多少个，比如上面一共 94 个符合的class，说明基本符合房间数。

5.写正则匹配，将内容匹配出来即可。

具体正则写法，不赘述了，就是利用定界，分组原理即可。

结果如下：

总结

入门级的爬虫学习，可以找有规律的网站去小试牛刀，上手之后可以尝试深入学习。

在程序的实现上，正则表达式并不是唯一提取信息的手段，还有其他的手段，比如 Python 的 BeautifulSoup 库等...要明白哪些是具有共同性的，分析节点的思维是亘古不变的，无非变得就是代码实现而已。

▼往期精彩回顾▼总有那么几个人，优秀到让你窒息社会需要正能量还在用网易云音乐客户端？out了~

长按关注

公众号名称：咪哥杂谈

一个咪咪怪的公众号

长按二维码关注哦！

你点的每个在看，我都认真当成了喜欢

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！